Let's Dance: Learning From Online Dance Videos
1000のダンス動画データセット
10のダンスカテゴリを分類
In recent years, deep neural network approaches have naturally extended to the video domain, in their simplest case by aggregating per-frame classifications as a baseline for action recognition. A majority of the work in this area extends from the imaging domain, leading to visual-feature heavy approaches on temporal data. To address this issue we introduce “Let’s Dance”, a 1000 video dataset (and growing) comprised of 10 visually overlapping dance categories that require motion for their classification. We stress the important of human motion as a key distinguisher in our work given that, as we show in this work, visual information is not sufficient to classify motion-heavy categories. We compare our datasets’ performance using imaging techniques with UCF-101 and demonstrate this inherent difficulty. We present a comparison of numerous state-of-theart techniques on our dataset using three different representations (video, optical flow and multi-person pose data) in order to analyze these approaches. We discuss the motion parameterization of each of them and their value in learning to categorize online dance videos. Lastly, we release this dataset (and its three representations) for the research community to use.
近年、ディープニューラルネットワークアプローチは、最も単純なケースでは、アクション認識のベースラインとしてフレームごとの分類を集約することによって、ビデオドメインに自然に拡張されました。この分野の研究の大部分はイメージング領域からのものであり、時間的データに対する視覚的特徴の多いアプローチにつながります。この問題に対処するために、分類のために動きを必要とする10の視覚的に重なり合うダンスカテゴリで構成される1000ビデオデータセット(および成長中)である「Let's Dance」を紹介します。この作品で示しているように、視覚的な情報は動きの多いカテゴリを分類するのに十分ではないことを考えると、私たちは私たちの作品の重要な区別として人間の動きの重要性を強調しています。画像処理技術を使用したデータセットのパフォーマンスをUCF-101と比較し、この本質的な難しさを実証します。これらのアプローチを分析するために、3つの異なる表現(ビデオ、オプティカルフロー、マルチパーソンポーズデータ)を使用して、私たちのデータセットに関する数多くの最先端技術の比較を提示します。オンラインダンスビデオを分類するための学習における、それぞれのモーションパラメータ化とその価値について説明します。最後に、このデータセット(およびその3つの表現)を研究コミュニティが使用するために公開します。
@article{Castro2018LetsDL,
title={Let's Dance: Learning From Online Dance Videos},
author={Daniel Castro and Steven Hickson and Patsorn Sangkloy and Bhavishya Mittal and Sean Dai and James Hays and Irfan A. Essa},
journal={CoRR},
year={2018},
volume={abs/1801.07388}
}